基于文本挖掘的外语课堂师生话语关联度研究
求真、务实、共享
Journal of Second Language Studies(JSLS)于2018年由吴诗玉教授(时任《当代外语研究》副主编)联合John Benjamins负责人Kees Vaes创立,上海交通大学(SJTU)外国语学院主办;John Benjamins出版;历经3年JSLS正式成为ESCI和Scopus检索期刊。
基本信息
外国语言文化论坛 第208讲(西安交通大学外国语学院)
Foreign Languages and Culture Forum No.208
题目:基于文本挖掘的外语课堂师生话语关联度研究
时间:4 月 15 日(周五)14:00-16:00
地点:腾讯会议 210 711 274
主讲人:吴诗玉
中文摘要
题目:基于文本挖掘的外语课堂师生话语关联度研究
摘要:本研究使用基于R语言的文本挖掘的技术手段,以两个平行班级的完整课堂话语作为研究对象,以单词频率(tf)以及单词的tf-idf值为技术指标,研究课堂话语中各角色话语的关联度,从而探讨外语教师课堂话语的促学问题。研究发现,从单词频率的总体指标看,两个平行班级的师生话语都与参照话语显著相关。但是,从课堂话语中各角色话语所用单词所承载的信息权重看,两个平行班级的师生话语都“离题”了,师生话语并没有触及到他们所学课文中由最重要的词语所定义的核心内容,关联度很低。不过,两个平行班级的教师话语都表现出与学生积极互动并对学生积极反馈的促学特征。
关键词:文本挖掘,课堂话语,词频,信息权重,关联度
英文摘要
Title: Correlates in the Student-Teacher Classroom Talk via Text Mining Tools with RAbstract: Via text mining tools with R, this study investigates the correlates in the English as a foreign language (EFL) student-teacher classroom talk with an attempt to address learning-promotion issues in foreign language classrooms. The teaching materials and the transcripts of conversations in two parallel classes were analyzed through term frequency (tf) and inverse document frequency (tf-idf). It was found that the discourse of both classes was significantly correlated with the baseline discourse (i.e., the teaching materials) at the level of the word frequency. However, zooming in on the term weight of the teacher and student talk through tf-idf, the discourse of both classess howed a low degree of relevance to the teaching materials and deviated from the core contents defined by the most important words of the teaching materials. Nevertheless, the teacher talk in both classes demonstrated some learning-promoting characteristics, such as vigorous student and teacher interaction and instant feedback.
Keywords: text mining, classroom discourse, word frequency, term weight, degree of relevance
内容简介
R是天生的数据分析利器,因其在统计建模和数据可视化方面的优势,它被越来越多的语言学者熟知和使用,已经成为应用语言学、心理语言学、实验语音学等研究者青睐的重要研究工具。本书在语言学量化研究视域下主要介绍了四个方面内容:①“干净、整洁”的数据框的标准;②基于ggplot2的语言数据可视化;③NHST的原理,即如何在语言研究中实现从样本到总体;④统计推断的多种应用。本书从训练数据框操作能力入手,在介绍这四个方面内容时,首先着力解决一些关键概念的理解问题,然后提供大量实例,把关键概念付诸具体应用。比如,在介绍数据框操作时,既有语言研究中常用的问卷数据处理,也有大量的反应时行为数据(E-prime)处理,这些数据都是基于笔者真实的语言研究项目。每项研究都会涉及上述四个方面内容,因此形成了一些可供后续使用的经验。
本书目录
前言
本书使用说明
第 1 章 R 数据科学:数据框的操作 1
1.1 干净、整洁的数据框的标准2
1.2 熟练地使用数据框操作函数8
1.2.1 gather( )和 spread( )的用法8
1.2.2 separate( )和 unite( )的用法 13
1.3 一些基础正则表达式的知识 21
1.4 数据表合并 32
1.4.1 传统的变长或变宽的表格合并 32
1.4.2 生成新变量的表格合并 37
1.4.3 不生成新变量的表格合并 43
1.4.4 集操作46
1.5 数据框运算和操作的五个函数 49
第 2 章 数据框操作实例:问卷数据处理 56
2.1 案例一:汉语第三人称代词的可接受度判断实验56
2.1.1 背景56
2.1.2 材料56
2.1.3 程序58
2.1.4 数据清洁和整理 59
2.1.5 利用最终数据进行描述统计 67
2.2 案例二:英语第三人称代词的可接受度判断实验71
2.2.1 背景71
2.2.2 材料73
2.2.3 程序74
2.2.4 数据清洁和整理 75
2.2.5 利用最终数据进行描述统计 87
第 3 章 数据框操作实例:反应时行为数据处理 91
3.1 背景92
3.1.1 被试92
3.1.2 材料93
3.1.3 程序94
3.2 E-prime 数据清洁和整理 94
3.3 RStudio 数据清洁和整理99
3.4 总结 113
第 4 章 概率分布 114
4.1 介绍 114
4.2 离散变量分布 116
4.3 连续变量分布:正态分布, t 分布、 F 分布和χ2分布120
4.3.1 正态分布 120
4.3.2 t 分布、 F 分布和χ2分布 128
第 5 章 假设检验的原理 133
5.1 正态分布视域下的 NHST 134
5.2 t 分布、 F 分布以及χ2分布视域下的 NHST141
5.3 总结 148
第 6 章 ggplot2 作图151
6.1 与实验数据关联的作图知识152
6.1.1 基础图形语法 152
6.1.2 分页 164
6.1.3 着色 176
6.1.4 图例修改 183
6.2 实验数据之外的作图知识188
6.2.1 theme 系统189
6.2.2 坐标体系、注解和绘制函数198
第 7 章 实验设计、 t 检验、方差分析和回归模型 203
7.1 实验研究和实验设计203
7.1.1 描述性研究 203
7.1.2 相关研究 204
7.1.3 界定变量之间关系的研究206
7.1.4 实验设计 208
7.1.5 拉丁方实验设计 211
7.2 t 检验 214
7.2.1 单样本 t 检验214
7.2.2 独立样本 t 检验218
7.2.3 配对样本 t 检验220
7.2.4 t 检验的效应量 222
7.2.5 t 检验的统计假设的前提 226
7.3 方差分析 226
7.3.1 独立测量的单向方差分析227
7.3.2 重复测量的单向方差分析230
7.3.3 多自变量方差分析 235
7.4 统计模型 242
7.5 总结 245
作者简介
吴诗玉教授具有丰富的心理语言学以及二语习得实证研究经验,是ESCI检索期刊Journal of Second Language Studies的联合执行主编,在SSCI和CSSCI期刊上发表了许多心理语言学以及二语习得方面的实证研究论文。出版著作5部,在国内CSSCI以及国际SSCI期刊上共发表近50篇研究论文,主持国家社科基金项目等科研项目多项。
识别二维码购买
1.相关阅读
王华树博士团队带你走进人工智能时代的翻译技术语言科学研究的利器——R
收藏版论文查重平台
3.公益讲座